Vượt Ngoài Từ Ngữ: Hiểu Về Tokenization và Thử Thách Kẹo Bông

Kiến trúc ẩn giấu của ngôn ngữ

Các Mô hình Ngôn ngữ lớn (LLMs) không "đọc" văn bản theo cách con người làm. Trong khi chúng ta nhìn thấy các chữ cái và từ, mô hình xử lý thông tin dưới dạng các khối số học được gọi là Tokens. Việc hiểu được khái niệm trừu tượng này là bước đầu tiên để thành thạo kỹ thuật lập trình lời nhắc (prompt engineering) và thiết kế hệ thống.

Thử thách Kẹo Bông

Tại sao một mô hình LLM lại gặp khó khăn khi đảo ngược các chữ cái trong từ "lollipop" nhưng lại thành công ngay lập tức khi được yêu cầu đảo ngược "l-o-l-l-i-p-o-p"?

Vấn đề:Trong từ thông thường, mô hình chỉ nhìn thấy một token duy nhất đại diện cho toàn bộ từ. Nó không có một bản đồ rõ ràng về từng chữ cái bên trong token đó.
Giải pháp:Bằng cách chia nhỏ từ bằng dấu gạch nối, bạn buộc mô hình phải tách riêng từng chữ cái thành các token riêng biệt, từ đó cung cấp tầm nhìn chi tiết cần thiết để thực hiện nhiệm vụ.

Nguyên tắc cốt lõi

Tỷ lệ Token:Theo quy tắc thông thường, 1 token tương đương khoảng 4 ký tự trong tiếng Anh, hay khoảng 0,75 từ.
Kích thước cửa sổ ngữ cảnh:Các mô hình có kích thước bộ nhớ cố định (ví dụ: 4096 token). Giới hạn này bao gồm cả hướng dẫn của bạn và phản hồi từ mô hình.

Cơ sở so với Mô hình được điều chỉnh theo lệnh

Mô hình cơ sở (Base LLMs):Dự đoán từ tiếp theo có khả năng cao nhất dựa trên dữ liệu khổng lồ (ví dụ: "Thủ đô của Pháp là gì?" có thể được theo sau bởi "Thủ đô của Đức là gì?").
Mô hình được điều chỉnh theo lệnh (Instruction-Tuned LLMs):Được tinh chỉnh qua Học tăng cường từ Phản hồi của Người dùng (RLHF) để tuân theo các lệnh cụ thể và hoạt động như một trợ lý.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

If you are processing a document that is 3,000 English characters long, roughly how many tokens will the model consume?

A) 3,000 tokens

B) 750 tokens

C) 12,000 tokens

Question 2

Why is an Instruction-Tuned LLM preferred over a Base LLM for building a chatbot?

A) It is faster at generating text.

B) It uses fewer tokens.

C) It is trained to follow specific tasks and dialogue formats.

Challenge: Token Estimation

Apply the token ratio rule to a real-world scenario.

You are designing an automated summarization system. The system receives daily reports that average 10,000 characters in length.

Your API provider charges $0.002 per 1,000 tokens.

Step 1

Estimate the number of tokens for a single daily report.

Solution:
Using the rule of thumb (1 token ≈ 4 characters):
$$ \text{Tokens} = \frac{10,000}{4} = 2,500 \text{ tokens} $$

Step 2

Calculate the estimated cost to process one daily report.

Solution:
The cost is $0.002 per 1,000 tokens.
$$ \text{Cost} = \left( \frac{2,500}{1,000} \right) \times 0.002 = 2.5 \times 0.002 = \$0.005 $$